时政
财经
科技
虚拟货币
其他
登录
#Realtime API
关注
sitin
1个月前
OpenAI 正式发布 Realtime API 降价20% 支持MCP、图像输入、可接入电话系统、新的语音和优化 与传统方案(语音转文字 + 大模型生成文字 + 文字转语音)不同,Realtime API 直接通过一个统一模型完成 语音输入-语音输出,从而减少延迟、保留语气细节,并生成更自然的对话体验。 1.模型能力的全方位提升 语音质量:生成的声音更接近真人(语调、停顿、速度),并发布新声音和优化旧声音。 语言能力:支持句内无缝切换语言、识别和表达非语言声音(如笑声)、跨语言准确朗读数字字母组合。 智能水平:在推理能力、指令遵循精度和函数调用能力三大基准测试上,相比前代模型均有显著提升(准确率提升超10个百分点)。 2.新增关键功能与优化 流程优化:支持异步函数调用,允许在后台执行长时间任务(如查数据库)时不打断前台对话。 功能扩展 (MCP):可通过 Model Context Protocol 轻松连接远程工具服务器,极大扩展了模型的能力边界。 多模态输入 (图像):除了语音和文字,现在可以输入图片让模型理解和分析。 企业集成 (SIP):支持 SIP 协议,使其能直接接入传统电话网络,用于呼叫中心等场景。 部署效率 (可复用提示):提供“模板化”的提示词管理功能,便于大规模标准化部署。
OpenAI大幅降价,o3模型API调用费用骤降80%· 6 条信息
#OpenAI
#Realtime API
#语音技术
#多模态输入
#企业集成
分享
评论 0
0
Leo Xiang
3个月前
想清楚 OpenAI Realtime API 以及 Gemini Live API是什么了: Realtime API = ASR + TTS + 意图识别小模型。 更多的是作为语音交互Agent的接入层。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 522 条信息
#OpenAI
#Realtime API
#Gemini Live API
#ASR
#TTS
#语音交互
#意图识别
#AI
分享
评论 0
0
Leo Xiang
4个月前
OpenAI 在协议定义上还是有号召力,Realtime API 的规范也基本成为标准了,看到多家的端到端方案都采用了Realtime API标准,或者是修改版的Realtime API 标准。
#OpenAI
#协议定义
#Realtime API
#标准化
#端到端方案
分享
评论 0
0
Leo Xiang
9个月前
最近用的比较好的一个Cursor小特性: NotePads 比如最近开发Realtime API的SDK, 就把Realtime API 相关的文档放到NotePads中,Cursor就能自动学习到最新的Realtime API相关的知识了。
#Cursor小特性
#NotePads
#Realtime API
#SDK
#文档管理
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞